Recherche de documents similaires sur le web par segmentations hiérarchiques et extraction de mots-clés

نویسنده

  • Alain Simac-Lejeune
چکیده

Résumé. La recherche de documents similaires est un processus qui consiste à trouver les documents présentant des similitudes, comme la copie ou la reformulation, sur des bases documentaires ou sur internet. Elle est utilisée notamment pour protéger la propriété intellectuelle de productions issues de l’enseignement, de la recherche ou de l’industrie. Dans cet article, nous définissons une approche automatique pour permettant d’extraire des mots-clés d’un document en effectuant un bouclage sur une succession de découpage de plus en plus petit. Cette approche permet d’obtenir des mots-clés impossibles à obtenir par une approche globale notamment quand la thématique, le style ou le contenu d’un document varient dans le document. L’objectif est de permettre la détection des documents présentant des similitudes en utilisant uniquement des mots-clés.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Modèle unifié pour la recherche d'information sémantique

Résumé : Un modèle documentaire permet de définir les unités d’indexation (mots, termes, etc.) et de les relier aux documents dans lesquels elles apparaissent. Il permet également de définir les liens entre documents ou portions de documents (ex. citation). Les modèles documentaires sont généralement exploités en recherche d’information pour la représentation des documents et des requêtes et il...

متن کامل

Un outil de détection automatique de thèmes

Vu la quantité de documents numériques disponible sur le Web et la nécessité de mettre au point des techniques de recherche efficaces, les systèmes de recherche d'information font de plus en plus appel aux techniques de Traitement Automatique des Langues (TAL) qui exploitent les informations syntaxiques ou sémantiques, dans le but d’améliorer la qualité des résultats fournis par les moteurs de ...

متن کامل

Une nouvelle approche pour indexer les documents manuscrits anciens Une nouvelle approche pour indexer les documents manuscrits anciens

Résumé : Dans cet article nous présentons une architecture pour la description et la recherche de documents manuscrits anciens. Nous utilisons une décomposition en Curvelets des images pour indexer les fragments linéaires de l’écriture. Appartenant à la famille des ondelettes, cette transformée nous permet d’avoir plusieurs niveaux de détails. Le schéma général consiste à analyser les orientati...

متن کامل

Interrogation à base d'Annotation Sémantique

Résumé. Les approches de la recherche d’information (RI) actuelles ne saisissent pas formellement la signification explicite d'une requête à base de mots-clés mais fournissent une voie confortable pour l'utilisateur qui spécifie ces besoins en informations sur la base des mots-clés. La recherche sémantique promet de fournir des résultats plus précis que la traditionnelle recherche par mots-clés...

متن کامل

Structured Indexing Model for Cross-Language Information Retrieval

In recent digital library systems or World Wide Web environment, parallel corpora are used by many applications (Natural Language Processing, machine translation, terminology extraction, etc.). This paper presents a new cross-language information retrieval model based on the language modeling. The model avoids query and/or document translation or the use of external resources. It proposes a str...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2013